两项最新的研究表明,人工智能(AI)聊天机器人可以为有关癌症的常见问题提供准确的信息,但在提供循证的癌症治疗建议方面却不尽人意[1]。
【HealthX 交流群】:用于分享公开的医疗科技资讯,线上线下活动信息,可以和3000余位对医疗科技感兴趣的朋友交流技术、商业问题。【申请加入交流群】【HealthX VIP交流群】:用于分享行业深度解读、政策深入研究、全球媒体付费内容精读、100余本医疗科技经典图书读书会活动(测试阶段)、主题活动如AI与精准医疗和大语言模型与医疗等、以及AI驱动的医疗科技智库扁鹊系统的优先内测。【申请加入VIP项目】
人工智能聊天机器人,如ChatGPT(OpenAI),正在成为健康信息的首选来源。不过,还没有研究对其医疗建议的质量尤其是针对癌症的建议进行过严格评估。
最近发表在《美国医学会杂志·肿瘤学》(
JAMA Oncology)上的两项新研究,初步有了答案。其中一项研究调查了常见的与癌症有关的谷歌搜索,发现人工智能聊天机器人一般都能为人们提供准确的信息,但是信息的实用性却因这类问题涉及到复杂的内容而受到限制。
图1. 图片来源:JAMA Oncology[2]
另一项评估癌症治疗建议的研究发现,人工智能聊天机器人在提供符合国家治疗指南的乳腺癌、前列腺癌和肺癌治疗建议方面总体失误较多。加利福尼亚大学旧金山分校巴卡尔计算健康科学研究所(University
of California Bakar Computational Health Sciences
Institute)负责人、医学博士阿图尔·布特(Atul
Butte)在研究报告随附的一篇社论中写道:“医学界正在迷恋最新的潜在助手——大型语言模型(LLM),尤其是聊天机器人如ChatGPT,但对GPT技术作为临床合作伙伴的核心信念还没有得到充分的认可。”
图2. 图片来源:JAMA Oncology[4]
本文提到的第一项研究(见图1)分析了4个人工智能聊天机器人对皮肤癌、肺癌、乳腺癌、结直肠癌和前列腺癌搜索量最高的前五个问题的回答质量,这4个人工智能聊天机器人是ChatGPT-3.5、Perplexity
(Perplexity.AI)、Chatsonic(Writesonic)和 Bing
AI(Microsoft)。聊天的问题包括什么是皮肤癌,前列腺癌、肺癌或乳腺癌,以及各自的症状是什么?研究小组对回答的质量、清晰度、可操作性、错误信息和可读性进行了评分。研究人员发现,4个聊天机器人生成了有关五种癌症的“高质量”回复,并没有传播错误信息。而且4个聊天机器人中有3个引用了知名的信息来源,如美国癌症协会(American
Cancer Society)、梅奥诊所(Mayo
Clinic)和疾病控制与预防中心(Centers
for Disease Controls and Prevention)。不过,研究小组也发现,这些信息的实用性“有限”,因为答复通常是以大学阅读水平撰写的。另一个限制因素是,人工智能聊天机器人提供的回答过于简洁,在没有视觉辅助的情况下,不能向用户解释更复杂的问题。作者提出:“这些局限性表明,人工智能聊天机器人应该作为补充信息来使用,而不是作为医疗信息的主要来源。”而这些聊天机器人通常也承认自身在提供个性化建议方面存在局限性,并鼓励用户就医。另一项相关研究评估了人工智能聊天机器人提供适当的癌症治疗建议的能力(见图3)。图3. 图片来源:JAMA Oncology[3]在这项分析中,美国波士顿哈佛医学院布里格姆综合医院人工智能医学项目的理学硕士Shan
Chen及其同事将ChatGPT-3.5提出的癌症治疗建议,与 2021年美国国家综合癌症网络(NCCN)指南进行了对比。研究小组设计了104个提示语(Prompts),目的是得到各种癌症(包括乳腺癌、前列腺癌和肺癌)的基本治疗策略。问题包括例如“I期乳腺癌的治疗方法是什么?”随后,几位肿瘤专家评估了聊天机器人的回答与NCCN指南之间的一致程度。
在62%的提示语和答复中,所有推荐的治疗方法都与肿瘤专家的观点一致。在98%的提示语中,聊天机器人至少提供了一种与指南一致的治疗方法。但是,对于34%的提示语,聊天机器人提供了至少一种不一致的治疗方法。约有13%的推荐疗法为“杜撰”,即不属于任何推荐疗法。“杜撰”的内容主要是针对晚期疾病的局部治疗、靶向治疗或免疫治疗的推荐。根据研究结果,研究小组建议临床医生告知患者,人工智能聊天机器人不是癌症治疗信息的可靠来源。作者说:“聊天机器人在提供准确的癌症治疗建议方面表现不佳。”聊天机器人极有可能在正确的建议中掺杂错误的建议,即使专家也很难发现这一错误。Butte在社论中强调了几个注意事项,包括研究小组评估的是“现成的”聊天机器人,它们可能没有受过专门的医疗培训,而且两项研究中设计的提示语都非常基础,这可能限制了其特异性或可操作性。尽管研究结果喜忧参半,但Butte仍对人工智能在医学领域的前景持乐观态度。他认为,如今的现实情况是,最高质量的医疗服务集中在NCI综合癌症中心等少数几个顶级医疗系统内,全球只有一小部分人可以享受到,然而,人工智能有可能改变这一现状。人工智能算法需要用
“来自全球最佳医疗系统的数据”和“NCCN等机构的最新指南”进行训练。然后就可以设计由人工智能驱动的数字健康平台,为全球各地的患者提供资源和建议。虽然在将这些算法引入医疗系统的过程中需要对其进行严格监控,但Butte表示,这并不能改变其在改变医疗资源不平等中所能发挥的潜力。
参考资料:[1] Do AI Chatbots Give Reliable Answers on Cancer? Yes and Nohttps://www.medscape.com/viewarticle/996023#vp_1[2] Assessment of Artificial Intelligence Chatbot Responses to Top Searched Queries About Cancerhttps://jamanetwork.com/journals/jamaoncology/article-abstract/2808733[3] Use of Artificial Intelligence Chatbots for Cancer Treatment Informationhttps://jamanetwork.com/journals/jamaoncology/fullarticle/2808731[4] Artificial Intelligence—From Starting Pilots to Scalable Privilegehttps://jamanetwork.com/journals/jamaoncology/article-abstract/2808732